用于相机轨迹估计,同时定位和映射(SLAM)[9]已被广泛用于机器人技术中。但是,在我们的背景下,传统的大满贯面临两个关键挑战。首先,SLAM假设一个静态环境,而我们的视频包含移动人体,这减少了估计值的认可。其次,单眼猛击只能恢复摄像头轨迹,最多可恢复到库尺度。为代表公制世界框架中的相机运动,我们需要估算一个缩放因素。最近的研究建议从观察到的人类运动中推断摄像机运动的规模[22,95]。特别是在猛击之后,这些方法共同优化了人类的姿势和摄像头尺度,因此人的位移与学习的运动模型相匹配。但是,由于运动模型是从Studio MoCap数据中学到的,因此预测的位移不会推广到现实世界中的复杂性。因此,他们难以恢复复杂而远程的轨迹。
主要关键词